Celem projektu była analiza zbioru danych dotyczącego materiałów wykorzystywanych w bateriach, z wykorzystaniem języka R. Dane te pochodzą z bazy Materials Project – inicjatywy Departamentu Energii USA, która dostarcza otwarte zasoby do badania właściwości i zastosowań materiałów.
Zbiór ten zawiera szczegółowe informacje o składzie chemicznym i parametrach wydajnościowych materiałów stosowanych w bateriach. Analiza pozwala lepiej zrozumieć ich właściwości, co wspiera rozwój innowacyjnych technologii magazynowania energii. Raport przedstawia wyniki przeprowadzonych badań oraz kluczowe wnioski.
library(skimr)
library(corrplot)
library(GGally)
library(dplyr)
library(plotly)
library("Hmisc")
library(mlbench)
library(caret)
library(rlang)
library(knitr)
library(DT)
library(dplyr)
library(ggplot2)
library(gridExtra)
library(here)
library(tidyverse)
library(scales)
library(patchwork)
library(Metrics)
library(broom)
library(randomForest)
W celu zilustrowania zawartości zbioru danych, wyświetlono kilka pierwszych wierszy zbioru, aby zaprezentować strukturę tabeli, nazwy zmiennych oraz przykłady wartości, które one przyjmują.
W poniższej tabeli przedstawiono znajdujące się w zbiorze atrybuty oraz ich definicje.
| Atrybut | Opis |
|---|---|
| Battery ID | Identyfikator baterii. |
| Battery Formula | Wzór chemiczny materiału baterii. |
| Working Ion | Główny jon, który odpowiada za transport ładunku w baterii. |
| Formula Charge | Wzór chemiczny materiału baterii w stanie naładowanym. |
| Formula Discharge | Wzór chemiczny materiału baterii w stanie rozładowanym. |
| Max Delta Volume | Zmiana objętości w % dla danego kroku napięcia za pomocą wzoru : max(charge, discharge)/min(charge, discharge) -1. |
| Average Voltage | Średnie napięcie dla poszczególnego kroku napięcia. |
| Gravimetric Capacity | Pojemność grawimetryczna, czyli ilość energii na jednostkę masy (mAh/g). |
| Volumetric Capacity | Pojemność wolumetryczna, czyli ilość energii na jednostkę objętości (mAh/cm³). |
| Gravimetric Energy | Gęstość energii w odniesieniu do masy baterii (Wh/kg). |
| Volumetric Energy | Gęstość energii w odniesieniu do objętości baterii (Wh/L). |
| Atomic Fraction Charge | Udział atomowy składników w stanie naładowanym. |
| Atomic Fraction Discharge | Udział atomowy składników w stanie rozładowanym. |
| Stability Charge | Wskaźnik stabilności materiału w stanie naładowanym. |
| Stability Discharge | Wskaźnik stabilności materiału w stanie rozładowanym. |
| Steps | Liczba odrębnych kroków napięcia od pełnego naładowania do rozładowana, oparta na stabilnych stanach pośrednich. |
| Max Voltage Step | Maksymalna bezwzględna różnica między sąsiednimi krokami napięcia. |
Zbiór danych zawiera 17 atrybutów i 4351 rekordów.
Suma brakujących wartości w zbiorze: 0.
| Liczba brakujących wartości | |
|---|---|
| Battery.ID | 0 |
| Battery.Formula | 0 |
| Working.Ion | 0 |
| Formula.Charge | 0 |
| Formula.Discharge | 0 |
| Max.Delta.Volume | 0 |
| Average.Voltage | 0 |
| Gravimetric.Capacity | 0 |
| Volumetric.Capacity | 0 |
| Gravimetric.Energy | 0 |
| Volumetric.Energy | 0 |
| Atomic.Fraction.Charge | 0 |
| Atomic.Fraction.Discharge | 0 |
| Stability.Charge | 0 |
| Stability.Discharge | 0 |
| Steps | 0 |
| Max.Voltage.Step | 0 |
Suma duplikatów: 0.
Zbiór danych nie zawiera brakujących wartości ani duplikatów, więc dane nie wymagają czyszczenia.
Zbiór zawiera:
- kolumny znakowe: 2,
- kolumny numeryczne: 11,
- kolumny logiczne: 0
── Data Summary ────────────────────────
Values
Name data
Number of rows 4351
Number of columns 17
_______________________
Column type frequency:
character 2
factor 4
numeric 11
________________________
Group variables None
W tej części zostanie przeprowadzona analiza wartości atrybutów w zbiorze danych. Celem tej analizy jest zrozumienie rozkładu, zmienności oraz kluczowych cech poszczególnych atrybutów, co pozwoli na lepszą interpretację danych. Analiza obejmie różne metody wizualizacji, takie jak histogramy, wykresy gęstości oraz wykresy pudełkowe, które umożliwią szybkie wychwycenie istotnych trendów, wartości odstających oraz charakterystyki rozkładu danych.
Sekcja obejmuje wizualizację rozkładów wartości dla atrybutów
numerycznych. Na górze znajduje się histogram, który ilustruje częstość
występowania różnych wartości atrybutu przyporządkowanych do określonej
liczby przedziałów. Pomarańczowy kolor reprezentuje linię gęstości
rozkładu (tzw. density plot). Wykres gęstości jest używany do
wizualizacji kształtu rozkładu danych, pozwalając na lepsze zrozumienie
jego formy w porównaniu do histogramu. Na wykresie znajduje się również
czerwona linia, oznaczająca średnią wartość atrybutu, oraz zółta
oznaczająca medianę, co pozwala na szybką ocenę jego centralnego
położenia.
na dole znajduje się wykres pudełkowy (tzw. boxplot), który wizualizuje
rozproszenie wartości i pozwala na identyfikację wartości
odstających.
Analizując rozkłady zmiennych, można zauważyć kilka kluczowych tendencji. Większość zmiennych charakteryzuje się silnie skośnymi rozkładami z dużą koncentracją wartości blisko zera oraz ogonami wydłużającymi się w kierunku wartości maksymalnych. Takie rozkłady sugerują istnienie znaczącej liczby obserwacji z niskimi wartościami oraz nieliczne przypadki ekstremalnych wyników.
Na histogramach można zauważyć wyraźne piki dla wartości centralnych w niektórych przypadkach, a linie gęstości pomagają uwidocznić kształt tych rozkładów. Średnia (czerwona linia przerywana) i mediana (żółta linia przerywana) często znajdują się bardzo blisko siebie, co wskazuje na umiarkowaną symetrię w części zmiennych. Niemniej jednak, w przypadku niektórych zmiennych, takich jak „Gravimetric.Capacity” czy „Volumetric.Capacity”, różnica między średnią a medianą sugeruje wpływ wartości skrajnych na rozkład.
Wykresy pudełkowe uzupełniają analizę, uwidaczniając obecność licznych wartości odstających w większości zmiennych. Obserwacje odstające są szczególnie widoczne dla zmiennych takich jak „Gravimetric.Energy” czy „Volumetric.Energy”.
Dla poszczególnych atrybutów można wyciągnąć wnioski, że większość wartości koncentruje się w zakresie:
Tabela przedstawia mediany wartości atryburów numerycznych, dla poszczególnych grup głównego jonu transportującego ładunek (Working Ion).
Na przedstawionym wykresie zaprezentowano rozkład głównych jonów
używanych do transportu ładunku w bateriach. Wyraźnie dominuje lit (Li),
który występuje znacznie częściej niż inne jony tj. prawie 2500 razy.
Sugeruje to powszechne zastosowanie technologii opartych na
litowo-jonowych rozwiązaniach, co jest zgodne z ich szerokim
wykorzystaniem w przemyśle elektroniki i magazynowania energii.
Szczególną zaletą baterii litowo-jonowych jest wysoką gęstość energii.
To znaczy, że mogą magazynować dużą ilość energii przy niewielkich
rozmiarach i niskiej wadze, co czyni je doskonałym rozwiązaniem dla
przenośnych urządzeń, takich jak laptopy i tablety („Litowo-jonowe a litowo-polimerowe: Szczegółowe
porównanie” 2024). W zestawieniu pierwiastków lit plasuje
się na drugim miejscu pod względem grawimetrcznej gęstości energii,
zaraz za wapniem.
Pozostałe jony, takie jak wapń (Ca), magnez (Mg), i cynk (Zn), również
znajdują zastosowanie, ale w znacznie mniejszym zakresie. Obecność jonów
takich jak sód (Na) i potas (K) mogą wskazywać na badania nad
alternatywami dla litu, jednak ich zastosowanie jest obecnie
ograniczone.
Poniżej znajdują się interkatywne wykresy pudełkowe dla każdej zmiennej numerycznej w zbiorze danych z podziałem na główne jony. Wykresy te umożliwiają eksplorację rozkładu wartości, identyfikację potencjalnych wartości odstających oraz porównanie zmienności w każdej zmiennej dla poszególnych jonów.
Wnioski z analizy wykresów rozkładów wartości wybranych atrybutów z podziałem na główny jon:
| Formula.Charge | total |
|---|---|
| MnO2 | 49 |
| TiO2 | 47 |
| VO2 | 46 |
| CrO2 | 45 |
| CoO2 | 43 |
| NiO2 | 41 |
| FeO2 | 36 |
| FePO4 | 26 |
| WO2 | 25 |
| CoPO4 | 24 |
| MnP2O7 | 22 |
| MnPO4 | 22 |
| VF5 | 22 |
| CoP2O7 | 20 |
| FeP2O7 | 20 |
| V2OF5 | 20 |
| WO3 | 20 |
| MoO2 | 19 |
| V2O5 | 19 |
| VPO5 | 18 |
| CrP2O7 | 17 |
| MnFeCo(PO4)3 | 17 |
| VP2O7 | 17 |
Wykres przedstawia liczbę wystąpień różnych wzorów chemicznych materiałów baterii w stanie naładowanym. W zbiorze jest 2096 różnych wzorów chemicznych materiałów baterii w stanie naładowanym. Najliczniejszymi są MnO2, TiO2, Vo2, CrO2, NiO2, FeO2.
Wykres przedstawia liczbę wystąpień różnych wzorów chemicznych materiałów baterii w stanie rozładowanym. W zbiorze jest 3173 różnych wzorów chemicznych materiałów baterii w stanie rozładowanym. Najczęściej występujące wzory to LiVOF11, Li2O5F5, LiFePO4, LiCoPO4. Znaczna większość najczęściej występujących wzorów zawiera cząsteczkę litu.
Stability Charge
Stability Discharge
Stabilność w stanie naładowanym:
Stabilność w stanie rozładowanym:
Szczególną uwagę przyciąga lit, który charakteryzuje się największą liczbą obserwacji i jednocześnie zajmuje pośrednie miejsce w zestawieniu pod względem wartości wskaźników stabilności.
Najniższą zmianą napięcia charakteryzuje się lit (Li), a najwyższą itr (Y).
Gęstość Grawimetryczna
Pojemność Grawimetryczna
Zarówno rubid (Rb) jak i Cez (Cs), które wypadają najgorzej pod względem energii i gestości grawimetrycznej są najrzadziej wykorzystywanymi jonami głównymi.
Poniższy wykres przedstawia zależność między liczbą obserwacji dla najczęściej występujących Wzorów chemicznych materiałów baterii w stanie naładowanym a medianą stabilności w stanie naładowanym. Dla każdego wzoru obliczono miary statyczne, które wyświetlają się po najechaniu na punkt.
Poniższa macierz korelacji ilustruje współczynniki korelacji Pearsona dla wybranych atrybutów. Kolory kafelków reprezentują siłę oraz kierunek korelacji. Odcienie niebieskiego wskazują na dodatnią korelację, a odcienie czerwonego na ujemną.
Najwyższy wspolczynnik korelacji wystepuje pomiedzy
parami atrybutów:
- Gravimetric Energy i Volumetric Energy - 0.93
- Gravimetric Capcity i Volumetric Capacity -
0.86
- Stability Charge i Stability Discharge - 0.80
- Gravimetric Capacity i Atomic Fraction Discharge - 0.68
- Average Voltage i Gravimetric Energy - 0.67
Wykres przedstawia zależność między gęstością energii wolumetryczną (Wh/L, energia na jednostkę objętości) a grawimetryczną (Wh/kg, energia na jednostkę masy), gdzie widoczna jest silna korelacja dodatnia między tymi parametrami. Gęstość energii jest kluczowym wskaźnikiem wydajności baterii - im wyższa wartość, tym więcej energii może być zmagazynowane w danej objętości lub masie baterii, co jest szczególnie istotne w zastosowaniach mobilnych, takich jak pojazdy elektryczne czy urządzenia przenośne. Większość badanych materiałów skupia się w zakresie do 2000 Wh/kg i 7500 Wh/L, choć występuje kilka obiecujących wyjątków o wyższych parametrach, które mogą stanowić potencjalne kierunki rozwoju nowych, wydajniejszych baterii.
Wykres przedstawia zależność między pojemnością wolumetryczną (mAh/cm³, ilość ładunku na jednostkę objętości) a grawimetryczną (mAh/g, ilość ładunku na jednostkę masy) materiałów, gdzie pojemność grawimetryczna określa ile energii można zmagazynować w danej masie materiału, a wolumetryczna - ile w danej objętości, co ma kluczowe znaczenie przy projektowaniu baterii o różnym przeznaczeniu. Współczynnik korelacji 0.86 wskazuje na silną zależność między tymi parametrami, choć nie tak silną jak w przypadku gęstości energii. Na przykład, materiał o wysokiej pojemności grawimetrycznej może być lekki, ale zajmować dużo miejsca, podczas gdy materiał o wysokiej pojemności wolumetrycznej może być cięższy, ale bardziej kompaktowy („Co warto wiedzieć o ogniwach litowo‑jonowych?” 2024).
Wykres przedstawia zależność między stabilnością materiału w stanie naładowanym (Stability Charge) a stabilnością w stanie rozładowanym (Stability Discharge), ze współczynnikiem korelacji 0.8 wskazującym na silną dodatnią zależność. Stabilność materiału jest kluczowym parametrem określającym, jak dobrze materiał zachowuje swoją strukturę i właściwości podczas cykli ładowania i rozładowania - im niższa wartość, tym materiał jest bardziej stabilny i bezpieczny w użytkowaniu. Większość badanych materiałów skupia się w zakresie niskich wartości (0-2) dla obu parametrów, co jest pożądane, natomiast punkty odstające o wyższych wartościach (powyżej 4) mogą wskazywać na materiały problematyczne, które mogą być mniej odpowiednie do zastosowań w bateriach ze względu na potencjalną niestabilność.
Wykres przedstawia zależność między pojemnością
grawimetryczną (Gravimetric Capacity, mAh/g) a udziałem
atomowym w stanie rozładowania (Atomic Fraction Discharge).
Można zaobserwować umiarkowanie silną dodatnią zależność, co potwierdza
współczynnik korelacji wynoszący 0.68. W miarę wzrostu pojemności
grawimetrycznej, udział atomowy w stanie rozładowania zwiększa się,
osiągając wartość maksymalną bliską 1.0.
Kolor punktów reprezentuje wartość Atomic Fraction Discharge, gdzie
jaśniejsze kolory wskazują na niższe wartości, a ciemniejsze na wyższe.
Dane wskazują, że większość obserwacji znajduje się w zakresie niskiej
pojemności grawimetrycznej (<1000 mAh/g), a dla wartości powyżej 2000
mAh/g zależność staje się nieliniowa. Sugeruje to, że materiały o
wyższej pojemności grawimetrycznej mają tendencję do osiągania wyższych
udziałów atomowych w stanie rozładowania.
Wykresy przedstawiają zależności między średnim napięciem (Average Voltage, V) a gęstością energii grawimetrycznej (Gravimetric Energy Density, Wh/kg) dla różnych wartości kroku napięcia. Dane wskazują, że wraz ze wzrostem średniego napięcia zwiększa się gęstość energii grawimetrycznej. Większość danych skupia się w zakresie niskich wartości napięcia (<10 V), co sugeruje, że materiały o wyższym napięciu są mniej liczne, ale wykazują większą efektywność energetyczną.
W tej sekcji zostaną przeanalizowane dwa modele predykcyjne dotyczące właściwości baterii. Pierwszy model, oparty na regresji liniowej, skupia się na przewidywaniu energii grawimetrycznej. Drugi model, wykorzystujący algorytm Random Forest, przewiduje średnie napięcie. W obu przypadkach celem jest ocena skuteczności zastosowanych metod oraz identyfikacja kluczowych czynników wpływających na wyniki.
Preprocessing danych jest kluczowym etapem przygotowania zbioru treningowego, ponieważ wpływa bezpośrednio na jakość, precyzję i zdolność predykcyjną modelu, eliminując szumy, redundancje i potencjalne źródła błędów, co ostatecznie decyduje o skuteczności i wiarygodności całego modelu.
W pierwszym kroku usunięto wybrane kolumny takie jak Battery.ID, Battery.Formula, Formula.Discharge, które nie wnosiły bezpośrednich informacji numerycznych do modelowania.
Następnie, obliczono korelację zmiennych numerycznych ze zmienną celu, zidentyfikowano i usunięto zmienne o wysokiej korelacji liniowej (przekraczającej wartość 0.8). Atrybuty, które zostały usunięte to Average.Voltage.
[1] 716
── Data Summary ────────────────────────
Values
Name data_cleaned
Number of rows 3635
Number of columns 13
_______________________
Column type frequency:
factor 3
numeric 10
________________________
Group variables None
W procesie preprocessingu danych jednym z kluczowych etapów była identyfikacja i usunięcie obserwacji odstających w zbiorze danych. W tym celu zdefiniowano próg dla liczby odstających wartości w danej obserwacji (outlier_threshold), który ustalono na poziomie 2. Następnie, wykorzystując metodę opartą na analizie rozstępu międzykwartylowego (IQR), zidentyfikowano wartości odstające w każdej kolumnie numerycznej zbioru danych.
Funkcja ta oblicza pierwszy (Q1) i trzeci kwartyl (Q3) dla każdej zmiennej, a następnie określa zakres wartości uznawanych za normalne, wyznaczony przez przedział [Q1−1.5⋅IQR,Q3+1.5⋅IQR]. Wartości spoza tego zakresu są oznaczane jako odstające. Na tej podstawie wygenerowano macierz logiczną, gdzie każda komórka wskazuje, czy dana wartość w zbiorze danych jest odstająca.
Dla każdej obserwacji w zbiorze danych policzono następnie liczbę odstających wartości. Obserwacje zawierające co najmniej dwie wartości odstające (zgodnie z ustalonym progiem) zostały oznaczone jako potencjalnie problematyczne. Takie obserwacje zostały wykluczone z dalszej analizy, co pozwoliło oczyścić dane i zminimalizować ich wpływ na model. Zostało usuniętych 735 rekordów.
── Data Summary ────────────────────────
Values
Name data_scaled
Number of rows 3635
Number of columns 13
_______________________
Column type frequency:
factor 3
numeric 10
________________________
Group variables None
Następnie dane zostały znormalizowane, do czego wykorzystano funkcję rescale.
Dane zostały podzielone na zbiory treningowy (70%) i testowy (30%). Podczas trenowania modelu zastosowano metodę walidacji krzyżowej, aby zapewnić jego stabilność i uogólnioną jakość. Dodatkowo, aby upewnić się, że rozkłady zmiennej celu są podobne w obu zbiorach, zwizualizowano je na poniższym wykresie gęstości.
Poniższy wykres przestawia zależność między wartościami rzeczywistymi a predykcjami modelu.
RMSE wynosi 3.1979.
Wykres “Residuals vs Fitted” sugeruje, że założenie liniowości modelu jest spełnione - rozkład reszt wokół linii zerowej nie wykazuje żadnych wyraźnych wzorców czy tendencji, co świadczy o poprawnej specyfikacji modelu. Dodatkowo, Q-Q plot reszt wykazuje, iż rozkład ten jest zbliżony do normalnego, potwierdzając tym samym kolejne ważne założenie regresji. Histogram reszt również potwierdza ten wniosek, prezentując symetryczny kształt typowy dla rozkładu normalnego. Jednocześnie, wykres ten sugeruje obecność pojedynczej obserwacji odstającej, która może wymagać dalszej analizy lub korekty. Kluczowym elementem oceny jakości modelu jest wykres “Observed vs Predicted”, który pokazuje, że przewidywane przez model wartości ściśle odpowiadają rzeczywistym obserwacjom - punkty układają się wzdłuż linii o nachyleniu zbliżonym do 1, co świadczy o dobrym dopasowaniu modelu. Nieznaczne odchylenia od linii idealnej są normalne i wynikają z występowania reszt, które nie zostały w pełni wytłumaczone przez model.
Model wykazuje wysoką skuteczność w przewidywaniu zmiennej celu, co potwierdza współczynnik determinacji \({R}^2\) wynoszący 0.9356. Oznacza to, że aż 93.56% zmienności zmiennej zależnej jest wyjaśniane przez model, co jest bardzo dobrym wynikiem. Skorygowany \({R}^2\) na poziomie 0.8621 pokazuje, że model nie tylko dobrze dopasowuje się do danych treningowych, ale również zachowuje dobrą jakość prognozowania po uwzględnieniu liczby zmiennych w modelu.
Statystyka F dla modelu wynosi 12.73, a wartość p jest mniejsza niż 2.2e-16, co oznacza, że model jest statystycznie istotny i jego dopasowanie jest lepsze niż w przypadku modelu, który nie uwzględnia żadnych zmiennych. Wartość ta potwierdza, że model skutecznie wykorzystuje dane do przewidywań.
Dodatkowo, na wykresie „residua vs. dopasowane wartości” widzimy, że reszty są rozproszone wokół poziomej linii, co sugeruje losowość błędów i potwierdza poprawne założenie o niezależności reszt. Wykres Q-Q pokazuje, że reszty są bliskie rozkładowi normalnemu, co jest kolejnym pozytywnym sygnałem, wspierającym założenia regresji. Histogram reszt również pokazuje, że większość z nich jest skoncentrowana wokół zera, ale ich rozkład jest nieco spłaszczony, co może wskazywać na lekkie odstępstwa od normalności, lecz bez większego wpływu na jakość modelu.
Ostatni wykres – „zaobserwowane vs. przewidywane” – prezentuje, że wartości przewidywane są bliskie rzeczywistym, co świadczy o wysokiej trafności modelu.
W rozdziale zostanie przeanalizowana predykcja średniego napięcia (Average Voltage) przy użyciu modelu Random Forest. Model ten pozwala uchwycić nieliniowe zależności i zidentyfikować kluczowe czynniki wpływające na napięcie. Przedstawione zostaną miary jakości oraz znaczenie zmiennych.
W pierwszym kroku usunięto wybrane kolumny takie jak Battery.ID, Battery.Formula, Formula.Discharge, Formula.Charge, które nie wnosiły bezpośrednich informacji do modelowania.
Następnie, obliczono korelację zmiennych numerycznych ze zmienną celu, zidentyfikowano i usunięto zmienne o wysokiej korelacji liniowej (przekraczającej wartość 0.8). Atrybuty, które zostały usunięte to Average.Voltage.
[1] 735
── Data Summary ────────────────────────
Values
Name data_cleaned_rf
Number of rows 3616
Number of columns 13
_______________________
Column type frequency:
factor 2
numeric 11
________________________
Group variables None
Zbiory mają zbliżone rozkłady zmiennej celu.
W celu oceny jakości modeli wykorzystano metryki RMSE, R-squared i MAE, ponieważ umożliwiają one kompleksową analizę błędów predykcji oraz dopasowania modelu do danych.
| Metryka | Wartość |
|---|---|
| RMSE | 0.5308909 |
| R-squared | 0.8949949 |
| MAE | 0.3789240 |
RMSE wskazuje, że przeciętny błąd predykcji wynosi około 0.75. Atrybut przyjmuje wartości z przedziału (-7;5.5), a więc RMSE jest stosunkowo niski. Sugeruje to, że model dobrze przewiduje wartość napięcia w większości przypadków, przy umiarkowanym błędzie. Wartość \(R^2 = 0.835\) oznacza, że model wyjaśnia 83.5% zmienności zmiennej zależnej. Jest to bardzo dobry wynik, wskazujący, że model dobrze dopasowuje się do danych i większość obserwacji może być przewidziana na podstawie dostępnych cech.
Najbardziej istotne zmienne dla predykcji modelu to energia grawimetryczna i wolumetryczna.